Mô tả toán học của bài toán và lời giải Điều khiển Gauss tuyến tính-bậc hai

Thời gian liên tục

Xem xét hệ thống động học tuyến tính thời gian liên tục

x ˙ ( t ) = A ( t ) x ( t ) + B ( t ) u ( t ) + v ( t ) , {\displaystyle {\dot {\mathbf {x} }}(t)=A(t)\mathbf {x} (t)+B(t)\mathbf {u} (t)+\mathbf {v} (t),} y ( t ) = C ( t ) x ( t ) + w ( t ) , {\displaystyle \mathbf {y} (t)=C(t)\mathbf {x} (t)+\mathbf {w} (t),}

trong đó  x {\displaystyle {\mathbf {x} }} đại diện cho các biến trạng thái của hệ thống, u {\displaystyle {\mathbf {u} }}  là vector đầu vào điều khiển và y {\displaystyle {\mathbf {y} }}  là vector đầu ra được đo lường dùng để phản hồi. Cả nhiễu hệ thống Gauss phụ trắng  v ( t ) {\displaystyle \mathbf {v} (t)}  và nhiễu đo lường Gauss phụ trắng đều tác động tới hệ thống. Với hệ thống này, mục tiêu là phải tìm thấy lịch sử đầu vào điều khiển  u ( t ) {\displaystyle {\mathbf {u} }(t)}  tại mọi lúc  t {\displaystyle {\mathbf {} }t} có thể chỉ phụ thuộc vào các phép đo quá khứ  y ( t ′ ) , 0 ≤ t ′ < t {\displaystyle {\mathbf {y} }(t'),0\leq t'<t} như vậy mà hàm chi phí sau đây được cực tiểu hóa:

J = E [ x T ( T ) F x ( T ) + ∫ 0 T x T ( t ) Q ( t ) x ( t ) + u T ( t ) R ( t ) u ( t ) d t ] , {\displaystyle J=E\left[{\mathbf {x} ^{\mathrm {T} }}(T)F{\mathbf {x} }(T)+\int _{0}^{T}{\mathbf {x} ^{\mathrm {T} }}(t)Q(t){\mathbf {x} }(t)+{\mathbf {u} ^{\mathrm {T} }}(t)R(t){\mathbf {u} }(t)\,dt\right],} F ≥ 0 , Q ( t ) ≥ 0 , R ( t ) > 0 , {\displaystyle F\geq 0,\quad Q(t)\geq 0,\quad R(t)>0,}

trong đó  E {\displaystyle {\mathbf {} }E}  là ký hiệu của giá trị mong muốn. Thời gian cuối cùng (chân trời) T {\displaystyle {\mathbf {} }T} có thể là hữu hạn hoặc vô hạn. Nếu đường chân trời có xu hướng tiến đến vô cùng số hạng đầu tiên x T ( T ) F x ( T ) {\displaystyle {\mathbf {x} }^{\mathrm {T} }(T)F{\mathbf {x} }(T)} của hàm chi phí trở nên không đáng kể và không liên quan đến bài toán. Ngoài ra để giữ cho chi phí hữu hạn, hàm chi phí phải được thực hiện để có J / T {\displaystyle {\mathbf {} }J/T} .

Bộ điều khiển LQG mà giải quyết được bài toán điều khiển LQG được quy định bởi các phương trình sau đây:

x ^ ˙ ( t ) = A ( t ) x ^ ( t ) + B ( t ) u ( t ) + K ( t ) ( y ( t ) − C ( t ) x ^ ( t ) ) , x ^ ( 0 ) = E [ x ( 0 ) ] , {\displaystyle {\dot {\hat {\mathbf {x} }}}(t)=A(t){\hat {\mathbf {x} }}(t)+B(t){\mathbf {u} }(t)+K(t)\left({\mathbf {y} }(t)-C(t){\hat {\mathbf {x} }}(t)\right),{\hat {\mathbf {x} }}(0)=E\left[{\mathbf {x} }(0)\right],} u ( t ) = − L ( t ) x ^ ( t ) . {\displaystyle {\mathbf {u} }(t)=-L(t){\hat {\mathbf {x} }}(t).}

Ma trận  K ( t ) {\displaystyle {\mathbf {} }K(t)}  được gọi là độ lợi Kalman của bộ lọc Kalman liên quan được thể hiện bởi phương trình đầu tiên. Tại mỗi thời điểm  t {\displaystyle {\mathbf {} }t} bộ lọc này tạo ra ước tính x ^ ( t ) {\displaystyle {\hat {\mathbf {x} }}(t)}  của trạng thái  x ( t ) {\displaystyle {\mathbf {x} }(t)} sử dụng các phép đo và đầu vào trong quá khứ. Độ lợi Kalman  K ( t ) {\displaystyle {\mathbf {} }K(t)} được tính toán từ các ma trận A ( t ) , C ( t ) {\displaystyle {\mathbf {} }A(t),C(t)} , hai ma trận cường độ V ( t ) , W ( t ) {\displaystyle \mathbf {} V(t),W(t)} liên quan đến các nhiếu Gauss trắng v ( t ) {\displaystyle \mathbf {v} (t)}  và  w ( t ) {\displaystyle \mathbf {w} (t)}  và cuối cùng  E [ x ( 0 ) x T ( 0 ) ] {\displaystyle E\left[{\mathbf {x} }(0){\mathbf {x} }^{\mathrm {T} }(0)\right]} . Năm ma trận này xác định độ lợi Kalman thông qua ma trận phương trình vi phân Riccati liên quan sau đây:

P ˙ ( t ) = A ( t ) P ( t ) + P ( t ) A T ( t ) − P ( t ) C T ( t ) W − 1 ( t ) C ( t ) P ( t ) + V ( t ) , {\displaystyle {\dot {P}}(t)=A(t)P(t)+P(t)A^{\mathrm {T} }(t)-P(t)C^{\mathrm {T} }(t){\mathbf {} }W^{-1}(t)C(t)P(t)+V(t),} P ( 0 ) = E [ x ( 0 ) x T ( 0 ) ] . {\displaystyle P(0)=E\left[{\mathbf {x} }(0){\mathbf {x} }^{\mathrm {T} }(0)\right].}

Với các giải pháp P ( t ) , 0 ≤ t ≤ T {\displaystyle P(t),0\leq t\leq T} độ lợi Kalman bằng

K ( t ) = P ( t ) C T ( t ) W − 1 ( t ) . {\displaystyle {\mathbf {} }K(t)=P(t)C^{\mathrm {T} }(t)W^{-1}(t).}

Ma trận L ( t ) {\displaystyle {\mathbf {} }L(t)}  được gọi là ma trận độ lợi phản hồi. Ma trận này được xác định bởi các ma trận A ( t ) , B ( t ) , Q ( t ) , R ( t ) {\displaystyle {\mathbf {} }A(t),B(t),Q(t),R(t)} và  F {\displaystyle {\mathbf {} }F} thông qua ma trận phương trình vi phân Riccati liên quan sau đây:

S ( T ) = F . {\displaystyle {\mathbf {} }S(T)=F.}

Với các lời giải  S ( t ) , 0 ≤ t ≤ T {\displaystyle {\mathbf {} }S(t),0\leq t\leq T}  độ lợi phản hồi bằng

L ( t ) = R − 1 ( t ) B T ( t ) S ( t ) . {\displaystyle {\mathbf {} }L(t)=R^{-1}(t)B^{\mathrm {T} }(t)S(t).}

Quan sát sự giống nhau của hai ma trận phương trình vi phân Riccati, phương trình đầu tiên chạy về phía trước theo thời gian, phương trình thứ hai chạy về phía ngược theo thời gian. sự tương đồng này được gọi là nhị nguyên. Ma trận phương trình vi phân Riccati đầu tiên giải quyết bài toán ước lượng tuyến tính bậc hai (LQE). Ma trận phương trình vi phân Riccati thứ hai giải quyết bài toán bộ điều chỉnh tuyến tính bậc hai (LQR). Những bài toán này là sóng đôi và chúng cùng nhau giải quyết bài toán tuyến tính bậc hai-Gaussian (LQG). Vì vậy, bài toán LQG chia tách thành bài toán LQE và LQR có thể được giải quyết một cách độc lập. Do đó, bài toán LQG được gọi là có thể tách rời.

Khi  A ( t ) , B ( t ) , C ( t ) , Q ( t ) , R ( t ) {\displaystyle {\mathbf {} }A(t),B(t),C(t),Q(t),R(t)} và các ma trận cường độ nhiễu V ( t ) {\displaystyle \mathbf {} V(t)} , W ( t ) {\displaystyle \mathbf {} W(t)}  không phụ thuộc vào  t {\displaystyle {\mathbf {} }t}  và khi  T {\displaystyle {\mathbf {} }T} có xu hướng tiến đến vô cùng, bộ điều khiển LQG trở thành một hệ động lực biến đổi theo thời gian. Trong trường hợp đó cả hai ma trận phương trình vi phân Riccati có thể được thay thế bằng hai phương trình Riccati đại số liên quan.

Thời gian rời rạc

Do bài toán điều khiển LQG thời gian rời rạc tương tự với bài toán trong thời gian liên tục, mô tả dưới đây tập trung vào các phương trình toán học.

Các phương trình hệ thống tuyến tính thời gian rời rạc là

x i + 1 = A i x i + B i u i + v i , {\displaystyle {\mathbf {x} }_{i+1}=A_{i}\mathbf {x} _{i}+B_{i}\mathbf {u} _{i}+\mathbf {v} _{i},} y i = C i x i + w i . {\displaystyle \mathbf {y} _{i}=C_{i}\mathbf {x} _{i}+\mathbf {w} _{i}.}

Trong đó  i {\displaystyle \mathbf {} i} đại diện cho các chỉ số thời gian rời rạc và v i , w i {\displaystyle \mathbf {v} _{i},\mathbf {w} _{i}} đại diện cho nhiễu trắng Gauss thời gian rời rạc xử lý với các ma trận hiệp phương sai V i , W i {\displaystyle \mathbf {} V_{i},W_{i}} tương ứng.

Hàm chi phí bậc hai được cực tiểu hóa là

J = E [ x N T F x N + ∑ i = 0 N − 1 ( x i T Q i x i + u i T R i u i ) ] , {\displaystyle J=E\left[{\mathbf {x} }_{N}^{\mathrm {T} }F{\mathbf {x} }_{N}+\sum _{i=0}^{N-1}(\mathbf {x} _{i}^{\mathrm {T} }Q_{i}\mathbf {x} _{i}+\mathbf {u} _{i}^{\mathrm {T} }R_{i}\mathbf {u} _{i})\right],} F ≥ 0 , Q i ≥ 0 , R i > 0. {\displaystyle F\geq 0,Q_{i}\geq 0,R_{i}>0.\,}

Bộ điều khiển LQG thời gian rời rạc là

u i = − L i x ^ i . {\displaystyle \mathbf {u} _{i}=-L_{i}{\hat {\mathbf {x} }}_{i}.\,}

Độ lợi Kalman bằng

K i = P i C i T ( C i P i C i T + W i ) − 1 , {\displaystyle {\mathbf {} }K_{i}=P_{i}C_{i}^{\mathrm {T} }(C_{i}P_{i}C_{i}^{\mathrm {T} }+W_{i})^{-1},}

trong đó  P i {\displaystyle {\mathbf {} }P_{i}} được xác định bởi ma trận phương trình vi phân Riccati sau đây mà chạy về phía trước theo thời gian:

Ma trận độ lợi phản hồi bằng

L i = ( B i T S i + 1 B i + R i ) − 1 B i T S i + 1 A i {\displaystyle {\mathbf {} }L_{i}=(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i})^{-1}B_{i}^{\mathrm {T} }S_{i+1}A_{i}}

trong đó  S i {\displaystyle {\mathbf {} }S_{i}} được xác định bởi ma trận phương trình vi phân Riccati sau đây theo hướng ngược thời gian:

S i = A i T ( S i + 1 − S i + 1 B i ( B i T S i + 1 B i + R i ) − 1 B i T S i + 1 ) A i + Q i , S N = F . {\displaystyle S_{i}=A_{i}^{\mathrm {T} }\left(S_{i+1}-S_{i+1}B_{i}\left(B_{i}^{\mathrm {T} }S_{i+1}B_{i}+R_{i}\right)^{-1}B_{i}^{\mathrm {T} }S_{i+1}\right)A_{i}+Q_{i},\quad S_{N}=F.}

Nếu tất cả các ma trận trong việc xây dựng bài toán là thời gian bất biến và nếu đường chân trời N {\displaystyle {\mathbf {} }N} có xu hướng tiến đến vô cùng, bộ điều khiển thời gian rời rạc LQG sẽ trở thành thời gian bất biến. Trong trường hợp đó, ma trận phương trình vi phân Riccati có thể được thay thế bằng phương trình đại số Riccati thời gian rời rạc liên quan của chúng. Những bộ ước lượng tuyến tính bậc hai bất biến theo thời gian và bộ điều chỉnh tuyến tính bậc hai thời gian bất biến được xác định trong thời gian rời rạc. Để giữ cho các chi phí hữu hạn thay vì J {\displaystyle {\mathbf {} }J}  ta phải xem xét  J / N {\displaystyle {\mathbf {} }J/N}  trong trường hợp này.